Introducción

Metodología

Exploración inicial de Datos

Dimensiones del Dataset

Dimensiones del Dataset
Métrica Valor
Número de filas 1460
Número de columnas 81

Primeras filas

Primeras 6 filas (5 columnas)
Id MSSubClass MSZoning LotFrontage LotArea Street Alley LotShape LandContour Utilities
1 60 RL 65 8450 Pave NA Reg Lvl AllPub
2 20 RL 80 9600 Pave NA Reg Lvl AllPub
3 60 RL 68 11250 Pave NA IR1 Lvl AllPub
4 70 RL 60 9550 Pave NA IR1 Lvl AllPub
5 60 RL 84 14260 Pave NA IR1 Lvl AllPub
6 50 RL 85 14115 Pave NA IR1 Lvl AllPub

Ultimas filas

Últimas 6 filas (5 columnas)
Id MSSubClass MSZoning LotFrontage LotArea Street Alley LotShape LandContour Utilities
1455 1455 20 FV 62 7500 Pave Pave Reg Lvl AllPub
1456 1456 60 RL 62 7917 Pave NA Reg Lvl AllPub
1457 1457 20 RL 85 13175 Pave NA Reg Lvl AllPub
1458 1458 70 RL 66 9042 Pave NA Reg Lvl AllPub
1459 1459 20 RL 68 9717 Pave NA Reg Lvl AllPub
1460 1460 20 RL 75 9937 Pave NA Reg Lvl AllPub

Observamos que el dataset contiene una complejidad adecuada y es necesaria la limpieza y transformación de datos para poder detectar relaciones, outliers y patrones en los datos.

Análisis descriptivo y Exploración de Variables

Estadísticas Descriptivas de variables numéricas

Resumen Estadístico de Variables Numéricas
count mean std min Q1.25% Median.50% Q3.75% max mediana
Id 1460 730.50 421.61 1 365.75 730.5 1095.25 1460 730.5
MSSubClass 1460 56.90 42.30 20 20.00 50.0 70.00 190 50.0
LotFrontage 1201 70.05 24.28 21 59.00 69.0 80.00 313 69.0
LotArea 1460 10516.83 9981.26 1300 7553.50 9478.5 11601.50 215245 9478.5
OverallQual 1460 6.10 1.38 1 5.00 6.0 7.00 10 6.0
OverallCond 1460 5.58 1.11 1 5.00 5.0 6.00 9 5.0
YearBuilt 1460 1971.27 30.20 1872 1954.00 1973.0 2000.00 2010 1973.0
YearRemodAdd 1460 1984.87 20.65 1950 1967.00 1994.0 2004.00 2010 1994.0
MasVnrArea 1452 103.69 181.07 0 0.00 0.0 166.00 1600 0.0
BsmtFinSF1 1460 443.64 456.10 0 0.00 383.5 712.25 5644 383.5
BsmtFinSF2 1460 46.55 161.32 0 0.00 0.0 0.00 1474 0.0
BsmtUnfSF 1460 567.24 441.87 0 223.00 477.5 808.00 2336 477.5
TotalBsmtSF 1460 1057.43 438.71 0 795.75 991.5 1298.25 6110 991.5
X1stFlrSF 1460 1162.63 386.59 334 882.00 1087.0 1391.25 4692 1087.0
X2ndFlrSF 1460 346.99 436.53 0 0.00 0.0 728.00 2065 0.0
LowQualFinSF 1460 5.84 48.62 0 0.00 0.0 0.00 572 0.0
GrLivArea 1460 1515.46 525.48 334 1129.50 1464.0 1776.75 5642 1464.0
BsmtFullBath 1460 0.43 0.52 0 0.00 0.0 1.00 3 0.0
BsmtHalfBath 1460 0.06 0.24 0 0.00 0.0 0.00 2 0.0
FullBath 1460 1.57 0.55 0 1.00 2.0 2.00 3 2.0
HalfBath 1460 0.38 0.50 0 0.00 0.0 1.00 2 0.0
BedroomAbvGr 1460 2.87 0.82 0 2.00 3.0 3.00 8 3.0
KitchenAbvGr 1460 1.05 0.22 0 1.00 1.0 1.00 3 1.0
TotRmsAbvGrd 1460 6.52 1.63 2 5.00 6.0 7.00 14 6.0
Fireplaces 1460 0.61 0.64 0 0.00 1.0 1.00 3 1.0
GarageYrBlt 1379 1978.51 24.69 1900 1961.00 1980.0 2002.00 2010 1980.0
GarageCars 1460 1.77 0.75 0 1.00 2.0 2.00 4 2.0
GarageArea 1460 472.98 213.80 0 334.50 480.0 576.00 1418 480.0
WoodDeckSF 1460 94.24 125.34 0 0.00 0.0 168.00 857 0.0
OpenPorchSF 1460 46.66 66.26 0 0.00 25.0 68.00 547 25.0
EnclosedPorch 1460 21.95 61.12 0 0.00 0.0 0.00 552 0.0
X3SsnPorch 1460 3.41 29.32 0 0.00 0.0 0.00 508 0.0
ScreenPorch 1460 15.06 55.76 0 0.00 0.0 0.00 480 0.0
PoolArea 1460 2.76 40.18 0 0.00 0.0 0.00 738 0.0
MiscVal 1460 43.49 496.12 0 0.00 0.0 0.00 15500 0.0
MoSold 1460 6.32 2.70 1 5.00 6.0 8.00 12 6.0
YrSold 1460 2007.82 1.33 2006 2007.00 2008.0 2009.00 2010 2008.0
SalePrice 1460 180921.20 79442.50 34900 129975.00 163000.0 214000.00 755000 163000.0

Estas estadísticas descriptivas nos permiten tener una idea general de la distribución de las variables numéricas en el dataset. A oartir de estos datos podemos explorar variables con gran variabilidad y outliers como:

  • SalePrice: Es la variable objetivo; analizar su distribución es esencial para detectar sesgos o valores atípicos que puedan afectar modelos predictivos.

  • GrLivArea, LotArea, X1stFlrSF y TotalBsmtSF: Estas variables relacionadas con áreas muestran amplios rangos y desviaciones estándar elevadas, lo que indica una variabilidad considerable. Evaluar su distribución ayudará a entender cómo influyen en el precio.

  • OverallQual y OverallCond: Son escalas de calidad y condición que, a pesar de ser discretas, pueden tener un impacto directo en el precio.

  • YearBuilt y YearRemodAdd: La antigüedad y el año de remodelación pueden explicar cambios en la valoración de las viviendas. Su distribución puede revelar tendencias históricas y patrones de renovación.

  • LotFrontage y MasVnrArea: Aunque LotFrontage presenta datos faltantes, es relevante para entender la exposición del lote. MasVnrArea muestra muchos ceros y algunos valores altos, lo que sugiere la presencia de outliers que vale la pena investigar.

  • GarageArea y GarageCars: Estas variables relacionadas con el garaje también presentan variabilidad notable y pueden influir en el precio, es útil evaluar si existen distribuciones sesgadas o valores extremos.

Exploración de variables categóricas

Variables relacionadas con la construcción y estructura

Este grupo de variables muestra una mayoría de casas unifamiliares, predominancia en casasde 2 y 1 piso, techos de tipo Gable y materiales de techos CompShg. La mayoría de las casas tienen cimientos de concreto y madera. Estos patrones pueden ser útiles para identificar características comunes en la construcción de las propiedades.

Variables relacionadas con el exterior y materiales

La mayoría de las casas presentan una condición y calidad exterior promedio, con pocas en estado excelente o deficiente. En las cubiertas exteriores, domina “VinylSd” tanto en la primera como en la segunda capa, seguido a cierta distancia por “MetalSd”, “Wd Sdng” y “HdBoard”. La mampostería vista (MasVnrType) más frecuente es “BrkFace”, con “Stone” como segunda opción. Esto sugiere un mercado residencial donde predomina un nivel de acabado estándar y revestimientos vinílicos o de metal, con menos variedad en acabados de alta o baja calidad.

Variables relacionadas con el sótano

La mayoría de los sótanos están en condición “TA” y calidad “TA” o “Gd”, con pocos casos “Ex” o “Fa”. La exposición del sótano suele ser “No” (sin exposición), aunque también hay un grupo con “Gd”, “Mn” y “Av”. Para la terminación del sótano, “GLQ” y “Unf” predominan en BsmtFinType1, mientras que “Unf” es casi absoluto en BsmtFinType2, indicando que muchos sótanos adicionales están sin terminar o tienen acabados básicos.

Variables relacionadas con el garaje

La mayoría de las casas tienen garajes adjuntos, seguidos por garajes separados y sin garaje. En cuanto al acabado del garaje, predominan los garajes sin acabado o con acabado de calidad estándar. La calidad y condición del garaje tienden a ser promedio, con pocos casos en los extremos. Estos patrones sugieren que la mayoría de las propiedades tienen garajes estándar o básicos, lo que puede influir en el precio de venta.

Variables relacionadas con calefacción y electricidad

La mayoría de las casas tienen calefacción estándar (GasA) y calidad promedio (TA). La electricidad es principalmente SBrkr, con algunos casos de FuseA y FuseF. La mayoría de las casas tienen aire acondicionado central, lo que sugiere un nivel de comodidad y eficiencia energética estándar en la mayoría de las propiedades.

Variables relacionadas con la ubicación del terreno

La mayoría de las propiedades tienen terrenos planos o ligeramente inclinados, con configuraciones de lote internas y formas regulares. Estos patrones sugieren que la mayoría de las propiedades están en áreas urbanas o suburbanas, con lotes estándar y fácil acceso a servicios y vías de comunicación.

Variables relacionadas con vecindario y accesibilidad

La mayoría de las propiedades tienen acceso por calle pavimentada y no tienen acceso a callejón. Los vecindarios más comunes son NAmes, CollgCr y OldTown, lo que sugiere una concentración en áreas urbanas o suburbanas. La mayoría de las propiedades tienen acceso pavimentado, lo que indica una buena accesibilidad a las vías principales.

Variables relacionadas con seguridad y condiciones

La mayoría de las propiedades se venden bajo condiciones normales y tienen funcionalidad típica. La calidad de la chimenea es promedio, con pocos casos en los extremos. La mayoría de las propiedades no tienen cercas, lo que sugiere una baja preocupación por la seguridad o privacidad en el vecindario.

Visualización de Variables Numéricas

Siendo esta la variable objetivo,observamos una distribución sesgada a la derecha, Esta asimetría puede afectar métodos estadísticos que asumen distribuciones normales. Observamos outliers en la parte superior de la distribución, lo que sugiere la presencia de propiedades muy caras que pueden afectar la predicción de precios.

  • Boxplot: Se aprecia que la mayoría de los precios se concentran en un rango intercuartílico entre 130,000 y 210,000 dólares, pero existen varios puntos extremos en la cola superior. Esto indica la presencia de propiedades con precios significativamente más altos.

  • Histograma con curva de densidad: La distribución se observa sesgada a la derecha, lo que se confirma por la diferencia entre la mediana y la media. Esto sugiere que, para algunos análisis o modelado, podría ser útil aplicar una transformación para aproximar una distribución normal.

Variables Numéricas Relacionadas con Áreas y Calidad

GrLivArea, LotArea, X1stFlrSF y TotalBsmtSF:

Los gráficos confirman que las variables de área tienden a ser altamente asimétricas y presentan outliers. Esto será fundamental al momento de construir modelos predictivos y al realizar inferencias estadísticas, ya que puede ser necesario transformar o estratificar estas variables para obtener resultados más confiables.

Variables Numéricas Relacionadas con Calidad y Años

  • Valores entre 1 y 10.

  • Mayoría entre 5 y 7.

  • Pico alrededor de 5-6.

  • Pocos valores en los extremos.

  • Valores entre 1 y 9.

  • Pico muy marcado en 5.

  • Caja centrada en 5-6.

  • Pocos casos en extremos (1, 9).

  • Rango amplio (1870–2010).

  • Incremento progresivo hasta 2000.

  • Concentración alta en décadas recientes.

  • Boxplot concentrado en 1950–2000.

  • Rango 1950–2010.

  • Mayor actividad de remodelación cerca de 1990 y 2010, 1950 presenta remodelaciones altas.

  • Boxplot abarca 1960–2000.

  • Pocos valores anteriores a 1960.

Variables Numéricas Relacionadas con Áreas y Calidad

  • Pico cercano a 60-70.

  • Muchos valores faltantes.

  • Cola derecha larga, outliers por encima de 150.

  • Mayoría en 0 (sin acabado de mampostería).

  • Fuerte sesgo a la derecha.

  • Outliers hasta 1600.

Variables Numéricas Relacionadas con el Garaje

  • Mayoría entre 400–600.

  • Distribución sesgada a la derecha.

  • Outliers por encima de 1000.

  • Pico en 2 autos.

  • Rango 0–4.

  • Pocos outliers en 4.

Las variables numéricas, como áreas y precios, se distribuyen con asimetría a la derecha y tienen outliers significativos. Las variables de calidad se concentran en rangos medios y se detectan datos faltantes en algunas. Esto indica que será necesario aplicar transformaciones , tratar outliers y profundizar en el análisis de las variables categóricas para extraer patrones relevantes en la valoración de propiedades

Identificación de faltantes y outliers

Resumen de Valores Faltantes en Variables Seleccionadas
Variable MissingCount MissingPercent UniqueValues
LotFrontage 259 17.74 65, 80, 68, 60, 84, 85, 75, NA, 51, 50, 70, 91, 72, 66, 101, 57, 44, 110, 98, 47, 108, 112, 74, 115, 61, 48, 33, 52, 100, 24, 89, 63, 76, 81, 95, 69, 21, 32, 78, 121, 122, 40, 105, 73, 77, 64, 94, 34, 90, 55, 88, 82, 71, 120, 107, 92, 134, 62, 86, 141, 97, 54, 41, 79, 174, 99, 67, 83, 43, 103, 93, 30, 129, 140, 35, 37, 118, 87, 116, 150, 111, 49, 96, 59, 36, 56, 102, 58, 38, 109, 130, 53, 137, 45, 106, 104, 42, 39, 144, 114, 128, 149, 313, 168, 182, 138, 160, 152, 124,
Alley 1369 93.77 NA, Grvl, Pave
PoolQC 1453 99.52 NA, Ex, Fa, Gd
Fence 1179 80.75 NA, MnPrv, GdWo, GdPrv, MnWw
MiscFeature 1406 96.30 NA, Shed, Gar2, Othr, TenC

Análisis de Outliers

Resumen Estadístico y Cuantiles para Análisis de Outliers
Variable Min X1. X5. X25. Median X75. X95. X99. Max
SalePrice 34900 61815.97 88000.00 129975.00 163000.0 214000.00 326100.00 442567.01 755000
GrLivArea 334 692.18 848.00 1129.50 1464.0 1776.75 2466.10 3123.48 5642
LotArea 1300 1680.00 3311.70 7553.50 9478.5 11601.50 17401.15 37567.64 215245
X1stFlrSF 334 520.00 672.95 882.00 1087.0 1391.25 1831.25 2219.46 4692
TotalBsmtSF 0 0.00 519.30 795.75 991.5 1298.25 1753.00 2155.05 6110
MasVnrArea 0 0.00 0.00 0.00 0.0 166.00 456.00 791.92 1600
GarageArea 0 0.00 0.00 334.50 480.0 576.00 850.10 1002.79 1418

Pruebas de Normalidad

Se definen grupos de variables como la variable objetivo y las variables numéricas de área, calidad y años, para evaluar su normalidad mediante pruebas estadísticas. Los resultados de las pruebas de normalidad se presentan a continuación:

Grupo 1: Variable objetivo y áreas

## 
## 
## Table: Pruebas de Normalidad para SalePrice
## 
## |Variable  |Test               | Statistic| P.value|
## |:---------|:------------------|---------:|-------:|
## |SalePrice |Shapiro-Wilk       |    0.8697|       0|
## |SalePrice |Anderson-Darling   |   41.6920|       0|
## |SalePrice |Kolmogorov-Smirnov |    0.1237|       0|
## |SalePrice |Lilliefors         |    0.1237|       0|
## 
## 
## Table: Pruebas de Normalidad para GrLivArea
## 
## |Variable  |Test               | Statistic| P.value|
## |:---------|:------------------|---------:|-------:|
## |GrLivArea |Shapiro-Wilk       |    0.9280|       0|
## |GrLivArea |Anderson-Darling   |   14.5322|       0|
## |GrLivArea |Kolmogorov-Smirnov |    0.0675|       0|
## |GrLivArea |Lilliefors         |    0.0675|       0|
## 
## 
## Table: Pruebas de Normalidad para LotArea
## 
## |Variable |Test               | Statistic| P.value|
## |:--------|:------------------|---------:|-------:|
## |LotArea  |Shapiro-Wilk       |    0.3511|       0|
## |LotArea  |Anderson-Darling   |  198.4183|       0|
## |LotArea  |Kolmogorov-Smirnov |    0.2515|       0|
## |LotArea  |Lilliefors         |    0.2515|       0|
## 
## 
## Table: Pruebas de Normalidad para X1stFlrSF
## 
## |Variable  |Test               | Statistic| P.value|
## |:---------|:------------------|---------:|-------:|
## |X1stFlrSF |Shapiro-Wilk       |    0.9269|       0|
## |X1stFlrSF |Anderson-Darling   |   19.1651|       0|
## |X1stFlrSF |Kolmogorov-Smirnov |    0.0869|       0|
## |X1stFlrSF |Lilliefors         |    0.0869|       0|
## 
## 
## Table: Pruebas de Normalidad para TotalBsmtSF
## 
## |Variable    |Test               | Statistic| P.value|
## |:-----------|:------------------|---------:|-------:|
## |TotalBsmtSF |Shapiro-Wilk       |    0.9174|       0|
## |TotalBsmtSF |Anderson-Darling   |   17.2764|       0|
## |TotalBsmtSF |Kolmogorov-Smirnov |    0.0760|       0|
## |TotalBsmtSF |Lilliefors         |    0.0760|       0|

Grupo 2: Variables de calidad y construcción

## 
## 
## Table: Pruebas de Normalidad para OverallQual
## 
## |Variable    |Test               | Statistic| P.value|
## |:-----------|:------------------|---------:|-------:|
## |OverallQual |Shapiro-Wilk       |    0.9480|       0|
## |OverallQual |Anderson-Darling   |   35.2300|       0|
## |OverallQual |Kolmogorov-Smirnov |    0.1552|       0|
## |OverallQual |Lilliefors         |    0.1552|       0|
## 
## 
## Table: Pruebas de Normalidad para OverallCond
## 
## |Variable    |Test               | Statistic| P.value|
## |:-----------|:------------------|---------:|-------:|
## |OverallCond |Shapiro-Wilk       |    0.8289|       0|
## |OverallCond |Anderson-Darling   |  125.2851|       0|
## |OverallCond |Kolmogorov-Smirnov |    0.3200|       0|
## |OverallCond |Lilliefors         |    0.3200|       0|
## 
## 
## Table: Pruebas de Normalidad para YearBuilt
## 
## |Variable  |Test               | Statistic| P.value|
## |:---------|:------------------|---------:|-------:|
## |YearBuilt |Shapiro-Wilk       |    0.9256|       0|
## |YearBuilt |Anderson-Darling   |   30.9635|       0|
## |YearBuilt |Kolmogorov-Smirnov |    0.1209|       0|
## |YearBuilt |Lilliefors         |    0.1209|       0|
## 
## 
## Table: Pruebas de Normalidad para YearRemodAdd
## 
## |Variable     |Test               | Statistic| P.value|
## |:------------|:------------------|---------:|-------:|
## |YearRemodAdd |Shapiro-Wilk       |    0.8628|       0|
## |YearRemodAdd |Anderson-Darling   |   71.4944|       0|
## |YearRemodAdd |Kolmogorov-Smirnov |    0.1745|       0|
## |YearRemodAdd |Lilliefors         |    0.1745|       0|

Grupo 3: Variables relacionadas con acabados y garaje

## 
## 
## Table: Pruebas de Normalidad para MasVnrArea
## 
## |Variable   |Test               | Statistic| P.value|
## |:----------|:------------------|---------:|-------:|
## |MasVnrArea |Shapiro-Wilk       |    0.6393|       0|
## |MasVnrArea |Anderson-Darling   |  182.6180|       0|
## |MasVnrArea |Kolmogorov-Smirnov |    0.3095|       0|
## |MasVnrArea |Lilliefors         |    0.3095|       0|
## 
## 
## Table: Pruebas de Normalidad para GarageArea
## 
## |Variable   |Test               | Statistic| P.value|
## |:----------|:------------------|---------:|-------:|
## |GarageArea |Shapiro-Wilk       |    0.9753|       0|
## |GarageArea |Anderson-Darling   |    9.2333|       0|
## |GarageArea |Kolmogorov-Smirnov |    0.0753|       0|
## |GarageArea |Lilliefors         |    0.0753|       0|

Las pruebas de normalidad en todos los grupos de variables arrojan p-valores extremadamente bajos (p < 2.2e-16 en la mayoría de los casos), lo que indica que ninguna de estas variables sigue una distribución normal según los test de Shapiro-Wilk, Anderson-Darling, Kolmogorov-Smirnov y Lilliefors. Esto es especialmente notable en variables como SalePrice, LotArea y MasVnrArea, que presentan un marcado sesgo a la derecha y outliers. Aunque algunas variables tienen valores de W relativamente altos, el tamaño de la muestra (n=1460) hace que incluso desviaciones leves se vuelvan estadísticamente significativas. En conclusión, la evidencia sugiere que es necesario aplicar transformaciones y/o estrategias de manejo de outliers para aproximar la normalidad y estabilizar la varianza antes de proceder con el modelado predictivo.

Preguntas Exploratorias

A partir de esta exploración inicial, se identificaron patrones y características clave en las variables categóricas y numéricas. Estos insights serán fundamentales para la limpieza, transformación y modelado de los datos, permitiendo construir modelos predictivos precisos y robustos.

Adicionalmente,surgen interrogantes sobre la relación entre las variables y su impacto en el precio de venta, por lo que previo a las transformaciones las cuales se responden de manera iterativa en el análisis exploratorio de datos. A continuación, se presentan las preguntas de investigación que guiarán el análisis y modelado de los datos:

  1. ¿Cómo se relacionan las variables de área (GrLivArea, LotArea, X1stFlrSF, TotalBsmtSF) con el precio de venta y cómo varían estas relaciones según categorías de calidad (OverallQual, OverallCond) y ubicación (Neighborhood, MSZoning)?

  • GrLivArea vs SalePrice
    En el diagrama de dispersión se aprecia una tendencia claramente positiva: a mayor superficie habitable (GrLivArea), mayor tiende a ser el precio de venta.

    • Se observa que los puntos con OverallQual más alto se concentran en la parte superior de la nube de puntos, indicando que casas con más área y mejor calidad se venden a precios notablemente superiores.
  • LotArea vs SalePrice
    Existe también una relación positiva, pero es más dispersa que GrLivArea. Se ven valores muy altos de LotArea que no siempre conllevan precios igual de altos, lo cual sugiere que el tamaño del lote por sí solo no determina el precio de forma tan directa como el área habitable.

    • Al superponer la variable OverallCond , se aprecia que las viviendas con mejor condición se ubican en rangos de precio más elevados, aun con lotes de tamaño similar.
  • X1stFlrSF vs SalePrice (por Neighborhood)
    En la gráfica se percibe nuevamente una relación creciente entre la superficie del primer piso y el precio.

    • Sin embargo, Neighborhood introduce diferencias: barrios de mayor nivel muestran precios más altos incluso para valores de X1stFlrSF relativamente moderados, mientras que en barrios de menor nivel se requieren superficies mucho mayores para alcanzar precios similares.
  • TotalBsmtSF vs SalePrice (por MSZoning)
    De igual modo, se ve correlación positiva entre el tamaño del sótano y el precio.

    • La zonificación segmenta el mercado: en zonas residenciales de baja densidad los precios suelen ser más elevados que en zonas multifamiliares, a igualdad de TotalBsmtSF.

Las áreas de la vivienda guardan una relación positiva con SalePrice. Esa relación se modula por la calidad/condición de la vivienda y por la ubicación .

  1. ¿Qué impacto tienen los años de construcción y remodelación (YearBuilt, YearRemodAdd) en el precio? ¿Existen tendencias o agrupaciones de propiedades antiguas versus modernas que influyan en SalePrice?

  • YearBuilt vs SalePrice
    El gráfico de dispersión con una línea de tendencia sugiere que las casas más nuevas suelen tener precios promedio más altos.

    • Sin embargo, hay puntos antiguos (antes de 1940) con precios elevados, lo cual indica que algunas casas históricas o muy bien conservadas también pueden alcanzar precios altos, probablemente por estar en barrios deseados o haber sido remodeladas.
  • SalePrice por década de construcción
    En la gráfica de cajas (boxplot) por década, se ve un incremento gradual en el precio mediano con cada década más reciente, aunque hay traslapes entre décadas y algunos outliers altos en décadas anteriores.

  • YearRemodAdd vs SalePrice
    El diagrama de dispersión muestra una tendencia similar: las casas con remodelaciones más recientes suelen presentar precios mayores. Se evidencia que la remodelación eleva el valor de propiedades antiguas.

Las viviendas construidas o renovadas más recientemente tienden a tener precios mayores, aunque propiedades muy antiguas y con alto mantenimiento pueden equipararse a precios de casas más nuevas.

  1. ¿Cuáles son las diferencias en la distribución de precios entre los distintos tipos de construcción y estilos de vivienda (BldgType, HouseStyle), y qué patrones se observan en función de la estructura física de la propiedad?

  • SalePrice por BldgType
    El boxplot muestra que 1Fam suele tener la mediana de precios más alta. Otras tipologías presentan mediana y dispersión de precios algo menores.

  • SalePrice por HouseStyle
    Se ven estilos como 1Story, 1.5Fin, 2Story, etc.

    • Generalmente, 2Story presenta una mediana algo más elevada que 1Story. Estilos con 1.5 pisos tienen una mediana menor, aunque con bastante dispersión.
  • SalePrice por BldgType y HouseStyle (combinados)
    Se confirma que las unifamiliares de 2 pisos tienden a precios más altos. Los demás estilos y tipos presentan menor valor medio, aunque con outliers en todos los grupos.

  1. ¿De qué manera afectan los acabados exteriores y materiales (Exterior1st, Exterior2nd, MasVnrType, MasVnrArea) la valoración de las viviendas? ¿Se observa que ciertos materiales o condiciones exteriores se asocian a precios más altos o más bajos?

  • SalePrice por Exterior1st y Exterior2nd
    Los boxplots muestran diferencias entre materiales: algunos como “Stone” o “Brick” tienen medianas de precio más altas. Acabados más económicos tienden a mediana inferior.

  • SalePrice por MasVnrType
    Se ven categorías como “BrkFace”, “Stone”, “None”. “Stone” y “BrkFace” suelen asociarse a valores más altos que “None”.

  • MasVnrArea vs SalePrice
    El diagrama de dispersión y la línea de tendencia reflejan una correlación positiva: cuanto mayor es el área de recubrimiento en mampostería (ladrillo, piedra, etc.), mayor suele ser el precio de venta.


Los acabados exteriores y la presencia de mampostería se asocian con precios más altos, indicando que la calidad y estética exterior añade valor.

  1. ¿Cómo influyen las condiciones y características del sótano (BsmtQual, BsmtCond, BsmtFinType1, BsmtFinSF1, BsmtFinSF2) en el precio?¿Existe un efecto diferencial entre casas con sótanos terminados y sin terminar?

  • SalePrice vs BsmtQual, BsmtCond, BsmtFinType
    Los boxplots muestran que calidades altas (Ex, Gd) y condiciones buenas se asocian con precios medianos superiores. BsmtFinType (GLQ, ALQ) —acabados de mayor nivel— también suben el precio respecto a un sótano sin terminar (Unf).

  • BsmtFinSF1 y BsmtFinSF2 vs SalePrice
    Los diagramas de dispersión evidencian una relación positiva: a más metros cuadrados terminados en el sótano, mayor precio.

    • BsmtFinSF1 suele tener un impacto más claro que BsmtFinSF2, probablemente porque es el área de acabado principal.


Un sótano bien calificado y con superficies terminadas aumenta el espacio habitable y, por ende, el valor de la vivienda.

  1. ¿Qué rol juegan las variables relacionadas con el garaje (GarageType, GarageArea, GarageCars, GarageQual, GarageCond) en la determinación del precio de venta? ¿Están las propiedades con garajes de mejor calidad o mayor capacidad asociadas a precios superiores?

  • SalePrice por GarageType
    Viviendas con garajes “Attached” o “BuiltIn” suelen tener precios medianos mayores que aquellas con “CarPort” o “NA” .

  • GarageArea vs SalePrice
    Se ve una correlación positiva: un garaje más grande tiende a asociarse con precios más altos.

  • GarageCars vs SalePrice
    La línea que conecta la media según el número de coches sube de forma notable: garajes de 2-3 plazas suelen estar en rangos de precio más elevados que los de 1 plaza.

  • SalePrice por GarageQual y GarageCond
    Garajes con calidades superiores (Ex, Gd) presentan precios medianos notablemente más altos. Condiciones regulares (TA) o pobres (Po) reducen la mediana.


    Un garaje amplio, con capacidad suficiente y buena calidad incrementa el valor de la vivienda, confirmando su importancia en la percepción del comprador.

  • ¿Existen patrones de desequilibrio o baja representatividad en ciertas variables categóricas (por ejemplo, Alley, PoolQC, MiscFeature) que requieran agrupar categorías o realizar recodificaciones para un análisis más fiable?

Frequency of Alley
Alley Count
Grvl 50
Pave 41
NA 1369
Frequency of PoolQC
PoolQC Count
Ex 2
Fa 2
Gd 3
NA 1453
Frequency of MiscFeature
MiscFeature Count
Gar2 2
Othr 2
Shed 49
TenC 1
NA 1406

  • Frecuencia de Alley
    El gráfico de barras muestra que la mayoría de los registros están en “NA” , y muy pocos tienen “Grvl” o “Pave”. Esto indica fuerte desequilibrio.

  • Frecuencia de PoolQC
    La gran mayoría también aparece como “NA”, y solo un puñado de viviendas tiene calificaciones de piscina (Ex, Gd, etc.). Claramente hay pocas casas con piscina.

  • Frecuencia de MiscFeature
    De nuevo, “NA” es dominante. Las categorías como “Shed”, “Tenc”, etc. son muy minoritarias.


Estas variables tienen muchos valores nulos o categorías con muy pocas observaciones, por lo que, para un análisis o modelado predictivo, probablemente se necesite agrupar, recodificar o descartar en ciertos casos.

  1. ¿Cómo se comportan las variables relacionadas con la ubicación y configuración del terreno (LotShape, LandContour, Street, Utilities) y qué relación tienen con el precio de venta?
Frequency of LotShape
LotShape Count
IR1 484
IR2 41
IR3 10
Reg 925
Frequency of LandContour
LandContour Count
Bnk 63
HLS 50
Low 36
Lvl 1311
Frequency of Street
Street Count
Grvl 6
Pave 1454
Frequency of Utilities
Utilities Count
AllPub 1459
NoSeWa 1

  • SalePrice por LotShape
    Los boxplots muestran que lotes de forma regular (Reg) tienden a un precio mediano más alto, mientras que lotes muy irregulares (IR3) suelen tener precios más bajos.

  • SalePrice por LandContour
    Los terrenos “Lvl” (nivelados) muestran, en general, medianas más altas que “Bnk” o “HLS” (terrenos con pendientes). No obstante, se observan outliers en todos los grupos.

  • SalePrice por Street
    Calles pavimentadas (Pave) se asocian a precios más elevados que calles de grava (Grvl). La diferencia no es tan marcada como en otras variables, pero sí visible.

  • SalePrice por Utilities
    Tener todos los servicios públicos (AllPub) presenta una mediana superior frente a “NoSeWa”. La mayoría de propiedades se concentran en “AllPub”, con pocas en la otra categoría.


Aunque no tan determinantes como el área o la calidad de construcción, estas variables de configuración y servicios del terreno influyen en la valoración final, especialmente cuando se combinan con la ubicación .

  1. ¿Qué variables muestran mayor presencia de outliers o sesgo en su distribución, y cuál es el impacto de estos extremos en los modelos predictivos? ¿Es necesario aplicar transformaciones (como logaritmos) o segmentaciones específicas?
Skewness of Selected Variables
Variable Skewness
SalePrice SalePrice 1.88
GrLivArea GrLivArea 1.37
LotArea LotArea 12.20
TotalBsmtSF TotalBsmtSF 1.52
GarageArea GarageArea 0.18
MasVnrArea MasVnrArea 2.67

  • Histogramas y boxplots de SalePrice y GrLivArea

    • SalePrice: Presenta una distribución sesgada a la derecha (right-skewed) con algunos outliers muy altos.

    • GrLivArea: También muestra outliers en la cola derecha y una distribución asimétrica.
      Esto sugiere que, para un modelo de regresión, podría ser beneficioso aplicar transformaciones logarítmicas o alguna técnica de robustez que maneje valores extremos.

SalePrice y GrLivArea tienen outliers y sesgo. Para un análisis predictivo, es habitual considerar log(SalePrice) y, a veces, log(GrLivArea), o bien detectar y tratar outliers que puedan distorsionar la estimación.

  1. ¿Cómo se combinan las variables de calidad, área y ubicación para explicar de forma conjunta la variabilidad en el precio de las propiedades?

A partir de todos los gráficos:

  • Calidad (OverallQual, BsmtQual, GarageQual, etc.):
    Las viviendas de mejor calidad y en buen estado destacan con precios altos en todos los ejes (área, sótano, garaje).

  • Área (GrLivArea, TotalBsmtSF, LotArea):
    El tamaño habitable es uno de los principales impulsores del precio; sin embargo, si la calidad es baja o la ubicación desfavorable, el precio no sube tanto.

  • Ubicación y servicios (Neighborhood, MSZoning, Street, Utilities):
    Zonas residenciales codiciadas y servicios completos pueden hacer que, incluso con áreas menores, se alcancen precios similares a los de casas grandes en barrios menos deseados.

En conjunto, una casa grande, con acabados de calidad y en un vecindario atractivo, se sitúa en la parte alta del rango de precios. Por el contrario, deficiencias en cualquiera de estas dimensiones pueden limitar el valor final de la vivienda.

Transformación de Datos y Preprocesamiento

La exploración inicial de los datos perimitió identificar que para una mejor comprensión y modelado de los datos es necesario transformar y preprocesar el conjunto de datos. Dentro de las transformaciones necesarias a realizar se detalllan las siguientes:

  • Manejo de NAs:

    • Reemplazar NAs con “None” en variables categóricas donde la ausencia sea semánticamente “no existe”.

    • Colocar 0 en variables de área donde no exista sótano/garaje.

    • Decidir si eliminar variables con demasiados NAs irrelevantes.

  • Agrupación de categorías poco frecuentes:

    • Unir en “Other” o “Rare” para evitar demasiados dummies con muy pocos registros.
  • Codificación:

    • One-Hot para nominales (Neighborhood, BldgType, etc.).

    • Ordinal para calidades y condiciones (Ex > Gd > TA > Fa > Po).

  • Outliers:

    • Evaluar la eliminación o recorte (capping) de valores extremadamente altos en variables como SalePrice, GrLivArea, LotArea.

    • Transformar SalePrice y otras variables con log para reducir skew.

  • Feature engineering:

    • Crear variables de área total, antigüedad, total de baños, puntuaciones de calidad, etc.

    • Comprobar su correlación con SalePrice para validarlas.

  • Escalado:

    • Normalizar o estandarizar variables numéricas según el algoritmo y la magnitud de los valores.
  • Validación:

    • Separar datos de entrenamiento y testantes de encodings y escalados, para no sobreajustar.

Análisis de Grupos

Estadistico de Hopkins

## [1] "Hopkins statistic: 0.9998"

El estadístico de Hopkins es un valor entre 0 y 1 que mide la tendencia de un conjunto de datos a formar clusters. Un valor cercano a 0.5 indica aleatoriedad, mientras que valores cercanos a 0 o 1 sugieren estructura. En este caso, el valor obtenido es 0.9998, lo que indica que los datos tienen una estructura significativa y son adecuados para el clustering. ### VAT

## [1] "dist"
## [1] 0 1

Se observa que la matriz de distancias presenta una estructura clara, con bloques de observaciones similares en color blanco y líneas oscuras que separan grupos de observaciones. Esto sugiere que los datos tienen una estructura no aleatoria y son adecuados para el clustering.

Número optimo de clusters (Método del Codo)

La gráfica muestra que el codo se encuentra en k = 4, lo que sugiere que este es el número óptimo de clusters para el conjunto de datos. ### K-Means

## K-means clustering with 4 clusters of sizes 89, 280, 191, 146
## 
## Cluster means:
##   SalePrice_log GrLivArea_log LotArea_log OverallQual  YearBuilt
## 1  -0.743335055    -1.6085131  -0.3407302  -0.6400492 -0.4148627
## 2   0.945435760     0.5778256   0.3541634   1.2151516  0.9325959
## 3   0.005393496     0.1155790   0.3923843  -0.3179807 -0.3386817
## 4   0.299182712     0.4274742   0.1652007   0.2295470  0.3218145
##   TotalBsmtSF_log GarageArea_log
## 1     -0.03838614    -0.86096265
## 2      0.81987820     0.68592153
## 3      0.53076469     0.08985027
## 4     -1.06890316     0.08653548
## 
## Clustering vector:
##    1    2    3    4    5    6    7    8   10   11   12   16   17   18   20   22 
##    4    3    2    4    2    4    2    3    2    2    3    3    1    2    2    1 
##   23   25   26   28   29   30   31   32   33   35   38   39   40   43   44   46 
##    2    2    3    1    2    3    2    2    3    3    1    2    2    4    1    2 
##   48   50   51   53   55   56   57   58   60   61   66   68   69   71   72   79 
##    3    4    2    3    2    2    2    2    3    2    4    2    1    2    4    3 
##   80   81   84   85   87   89   93   95   96   98   99  100  101  104  105  109 
##    4    2    3    4    2    2    3    2    3    1    1    2    4    3    3    4 
##  110  111  112  113  114  115  116  117  118  119  121  122  123  124  127  131 
##    1    4    4    2    3    3    1    2    2    4    2    3    2    3    4    2 
##  132  133  136  137  138  139  143  144  145  146  147  149  150  151  152  157 
##    3    1    2    3    2    2    3    4    2    4    3    3    3    3    2    2 
##  159  160  163  164  165  167  169  170  171  175  176  177  178  179  180  182 
##    2    3    4    4    2    2    2    1    3    3    1    2    1    3    2    3 
##  183  186  187  191  192  194  196  197  198  201  202  203  204  205  207  208 
##    2    2    4    1    2    4    2    2    2    4    2    3    3    3    4    3 
##  209  210  211  212  214  215  216  219  220  221  222  223  225  226  227  228 
##    1    2    4    2    3    1    4    1    2    3    2    3    2    2    4    3 
##  230  231  233  235  236  238  239  241  242  243  244  245  247  250  252  253 
##    2    3    3    4    2    1    3    3    4    1    2    2    4    4    1    4 
##  254  255  256  257  258  259  260  262  263  264  266  267  268  269  270  271 
##    4    2    2    2    2    2    4    2    3    3    3    1    2    2    4    3 
##  272  273  274  275  276  279  281  282  284  285  290  291  293  297  298  299 
##    2    2    2    1    2    2    1    3    2    2    3    3    2    4    4    3 
##  300  302  303  307  310  311  313  316  317  318  319  323  325  326  327  328 
##    3    3    4    4    2    2    2    1    2    1    4    1    2    2    4    3 
##  330  331  332  334  336  337  338  339  341  342  343  345  346  349  350  358 
##    3    2    2    1    2    2    4    3    1    2    3    2    1    2    3    2 
##  361  362  363  364  365  366  368  374  375  376  377  378  379  381  384  385 
##    3    3    1    2    4    3    3    3    4    2    4    2    4    2    3    2 
##  386  388  389  392  393  394  395  398  399  402  406  407  409  410  411  412 
##    2    2    2    1    1    3    3    4    1    2    3    2    3    4    2    4 
##  413  414  415  417  419  420  421  422  423  424  426  428  429  430  433  435 
##    1    3    2    1    2    4    2    4    3    3    2    2    3    3    4    1 
##  436  437  439  441  442  444  445  446  447  449  450  452  453  455  456  457 
##    2    2    2    2    2    2    1    1    4    3    3    3    2    2    2    2 
##  459  461  464  465  467  468  469  470  472  475  477  478  484  485  486  488 
##    3    4    1    3    3    3    2    2    2    3    4    2    2    4    2    2 
##  489  490  491  493  494  495  497  498  500  501  502  504  505  508  513  514 
##    4    1    4    2    1    2    1    4    2    2    3    4    3    1    2    2 
##  515  516  518  519  522  524  526  527  529  530  531  533  534  535  536  537 
##    4    2    1    4    4    2    1    1    3    4    2    3    2    2    3    3 
##  540  541  542  546  550  551  553  555  556  557  560  561  562  564  566  567 
##    3    3    1    2    2    2    4    2    3    3    2    3    2    2    2    4 
##  573  574  575  576  580  581  583  584  587  589  592  595  597  598  599  602 
##    4    4    3    2    3    2    4    2    2    3    4    2    2    3    2    4 
##  603  606  607  609  612  613  614  615  616  621  623  626  627  628  629  631 
##    2    2    4    2    4    2    2    3    2    2    2    3    4    2    1    3 
##  632  633  635  637  638  639  640  644  645  646  648  649  651  654  655  656 
##    4    2    4    1    2    4    4    4    2    2    3    1    3    3    1    2 
##  658  659  660  662  664  665  667  669  671  672  673  674  675  677  679  680 
##    2    1    4    4    2    2    3    3    2    3    1    1    3    1    4    3 
##  682  683  684  689  690  693  694  696  698  700  702  704  706  707  708  710 
##    3    3    4    3    3    4    3    2    2    2    4    1    2    1    3    1 
##  711  712  714  715  716  717  719  720  725  726  727  728  729  731  737  738 
##    4    1    3    1    2    3    4    1    3    4    2    1    2    4    1    2 
##  739  740  741  742  743  744  745  746  747  748  750  753  754  755  756  757 
##    3    4    3    3    3    2    4    2    2    2    2    2    2    2    3    4 
##  758  759  760  761  762  763  766  768  770  771  774  776  777  778  785  786 
##    3    3    3    3    2    4    4    3    1    2    2    2    4    4    2    4 
##  789  791  793  797  798  799  800  801  802  803  805  806  807  810  811  813 
##    1    2    2    2    4    4    2    3    4    2    1    3    2    2    3    3 
##  814  816  820  821  822  823  827  828  830  831  832  835  837  838  840  842 
##    2    1    4    2    1    2    3    2    4    2    2    2    3    4    2    2 
##  846  847  848  849  850  851  852  853  854  855  858  859  860  861  864  866 
##    2    2    4    3    2    3    2    2    2    3    3    2    4    4    4    4 
##  868  869  872  873  874  875  878  884  887  891  893  894  895  896  897  901 
##    3    1    3    1    2    4    2    3    3    4    2    4    4    2    4    2 
##  905  906  910  912  915  916  918  920  921  923  924  928  931  933  934  936 
##    1    2    2    3    2    4    1    3    1    4    2    3    4    3    3    4 
##  937  939  940  941  943  944  945  946  947  948  949  951  952  955  956  957 
##    3    2    4    3    3    2    4    3    2    1    3    3    2    2    2    3 
##  959  960  961  965  966  968  969  971  972  974  975  976  982  984  985  986 
##    2    4    3    4    4    2    3    4    2    3    2    3    2    1    3    3 
##  988  990  991  992  994  998  999 1000 1001 1002 1003 1004 1006 1007 1009 1010 
##    4    2    3    3    3    4    3    2    4    2    3    4    1    4    2    2 
## 1011 1012 1014 1015 1016 1019 1020 1021 1022 1023 1024 1026 1028 1030 1031 1033 
##    1    2    4    4    4    3    2    4    3    2    3    3    3    2    1    3 
## 1034 1035 1036 1037 1038 1039 1041 1043 1044 1046 1047 1048 1050 1052 1053 1055 
##    1    3    3    2    2    3    4    1    1    2    1    2    2    2    2    1 
## 1056 1057 1058 1059 1061 1062 1063 1065 1068 1071 1073 1077 1078 1079 1080 1082 
##    3    2    2    2    2    2    3    4    4    1    3    3    2    3    4    2 
## 1083 1084 1086 1087 1088 1089 1090 1091 1093 1096 1097 1100 1102 1103 1104 1105 
##    2    2    3    4    1    2    2    1    2    4    4    2    3    2    2    2 
## 1106 1115 1117 1118 1119 1120 1123 1124 1129 1130 1131 1134 1136 1137 1139 1140 
##    2    2    2    1    2    3    2    4    4    2    2    4    2    3    3    2 
## 1141 1142 1143 1145 1146 1148 1149 1151 1152 1153 1155 1156 1158 1160 1162 1163 
##    1    3    4    4    3    3    4    4    3    3    2    3    2    2    3    2 
## 1167 1169 
##    2    4 
## 
## Within cluster sum of squares by cluster:
## [1] 575.6701 467.9795 493.3340 373.5606
##  (between_SS / total_SS =  48.0 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Los centroides de los clusters representan los valores medios de las variables en cada grupo. Las observaciones se asignan al cluster cuyo centroide está más cerca en términos de distancia Euclidiana. ### Visualización de Clusters

Los clusters se visualizan en un espacio de 2 dimensiones, con elipses convexas que representan la dispersión de los datos en cada grupo. Los colores y etiquetas indican la asignación de observaciones a cada cluster.

Calidad del Agrupamiento

##   cluster size ave.sil.width
## 1       1   89          0.06
## 2       2  280          0.41
## 3       3  191          0.20
## 4       4  146          0.21

Se observa que los clusters tienen un tamaño similar y que la mayoría de las observaciones tienen un coeficiente de silueta positivo, lo que indica que están bien asignadas a sus respectivos grupos.

Análisis de componentes principales (PCA)

## Importance of components:
##                           PC1    PC2    PC3    PC4     PC5     PC6     PC7
## Standard deviation     1.8083 1.0134 0.9756 0.7897 0.74894 0.59485 0.46114
## Proportion of Variance 0.4672 0.1467 0.1360 0.0891 0.08013 0.05055 0.03038
## Cumulative Proportion  0.4672 0.6139 0.7498 0.8389 0.91907 0.96962 1.00000

El análisis de componentes principales (PCA) permite reducir la dimensionalidad de los datos y visualizar la estructura subyacente. Los resultados muestran la varianza explicada por cada componente y la importancia de las variables en la formación de los ejes principales.

Visualización de Componentes Principales

El gráfico de valores propios muestra la proporción de varianza explicada por cada componente principal. En este caso, los dos primeros componentes explican la mayor parte de la varianza en los datos.

Modelado

Discusión y Conclusiones